异常在所有科学领域都无处不在,并且由于对数据分布的不完整知识或突然进入发挥和扭曲观测的未知过程,因此可以表达意外事件。由于此类事件“稀有性,培训对异常检测(广告)任务的深入学习模型,科学家仅依赖于”正常“数据,即非异常样本。因此,让神经网络推断输入数据下方的分布。在这种情况下,我们提出了一种小说框架,名为多层单级分类(MOCCA),在广告任务中培训和测试深入学习模型。具体来说,我们将它应用于AutoEncoders。我们工作中的一个关键新颖性源于明确优化广告任务的中间陈述。实际上,与常用方法不同,将神经网络视为单个计算块,即,仅使用最后一层的输出,MOCCA明确地利用了深度架构的多层结构。每个层的特征空间在训练期间针对广告进行了优化,而在测试阶段,从训练的层提取的深表示混合以检测异常。使用Mocca,我们将培训过程分为两个步骤。首先,AutoEncoder仅在重建任务上培训。然后,我们只保留编码器任务,以最小化输出表示和参考点之间的L_2距离,在每个考虑的层上都是无异常的训练数据质心。随后,我们将在编码器模型的各种训练层中提取的深度特征组合以检测推理时间的异常。为了评估使用MOCCA培训的模型的性能,我们对公共数据集进行了广泛的实验。我们表明,我们的拟议方法对文献中可用的最先进的方法达到了可比或卓越的性能。
translated by 谷歌翻译
The emergence of COVID-19 has had a global and profound impact, not only on society as a whole, but also on the lives of individuals. Various prevention measures were introduced around the world to limit the transmission of the disease, including face masks, mandates for social distancing and regular disinfection in public spaces, and the use of screening applications. These developments also triggered the need for novel and improved computer vision techniques capable of (i) providing support to the prevention measures through an automated analysis of visual data, on the one hand, and (ii) facilitating normal operation of existing vision-based services, such as biometric authentication schemes, on the other. Especially important here, are computer vision techniques that focus on the analysis of people and faces in visual data and have been affected the most by the partial occlusions introduced by the mandates for facial masks. Such computer vision based human analysis techniques include face and face-mask detection approaches, face recognition techniques, crowd counting solutions, age and expression estimation procedures, models for detecting face-hand interactions and many others, and have seen considerable attention over recent years. The goal of this survey is to provide an introduction to the problems induced by COVID-19 into such research and to present a comprehensive review of the work done in the computer vision based human analysis field. Particular attention is paid to the impact of facial masks on the performance of various methods and recent solutions to mitigate this problem. Additionally, a detailed review of existing datasets useful for the development and evaluation of methods for COVID-19 related applications is also provided. Finally, to help advance the field further, a discussion on the main open challenges and future research direction is given.
translated by 谷歌翻译
The global Information and Communications Technology (ICT) supply chain is a complex network consisting of all types of participants. It is often formulated as a Social Network to discuss the supply chain network's relations, properties, and development in supply chain management. Information sharing plays a crucial role in improving the efficiency of the supply chain, and datasheets are the most common data format to describe e-component commodities in the ICT supply chain because of human readability. However, with the surging number of electronic documents, it has been far beyond the capacity of human readers, and it is also challenging to process tabular data automatically because of the complex table structures and heterogeneous layouts. Table Structure Recognition (TSR) aims to represent tables with complex structures in a machine-interpretable format so that the tabular data can be processed automatically. In this paper, we formulate TSR as an object detection problem and propose to generate an intuitive representation of a complex table structure to enable structuring of the tabular data related to the commodities. To cope with border-less and small layouts, we propose a cost-sensitive loss function by considering the detection difficulty of each class. Besides, we propose a novel anchor generation method using the character of tables that columns in a table should share an identical height, and rows in a table should share the same width. We implement our proposed method based on Faster-RCNN and achieve 94.79% on mean Average Precision (AP), and consistently improve more than 1.5% AP for different benchmark models.
translated by 谷歌翻译
情绪可以提供自然的交流方式,以补充许多领域中社交机器人(例如文本和语音)现有的多模式能力。我们与112、223和151名参与者进行了三项在线研究,以调查使用情绪作为搜救(SAR)机器人的交流方式的好处。在第一个实验中,我们研究了通过机器人的情绪传达与SAR情况有关的信息的可行性,从而导致了从SAR情况到情绪的映射。第二项研究使用控制控制理论是推导此类映射的替代方法。此方法更灵活,例如允许对不同的情绪集和不同机器人进行调整。在第三个实验中,我们使用LED作为表达通道为外观受限的室外现场研究机器人创建了情感表达。在各种模拟的SAR情况下,使用这些情感表达式,我们评估了这些表达式对参与者(采用救援人员的作用)的影响。我们的结果和提议的方法提供了(a)有关情感如何帮助在SAR背景下传达信息的见解,以及(b)在(模拟)SAR通信环境中添加情绪为传播方式的有效性的证据。
translated by 谷歌翻译
由于信息和通信技术(ICT)产品的特征,ICT设备的关键信息通常以跨供应链共享的大型表格数据进行总结。因此,至关重要的是,用电子资产的飙升量自动解释表格结构。为了将电子文档中的表格数据转换为机器解释格式,并提供有关信息提取和解释的布局和语义信息,我们定义了表结构识别(TSR)任务和表单元格类型分类(CTC)任务。我们使用图表代表TSR任务的复杂表结构。同时,根据CTC任务(即标头,属性和数据)的功能角色,将表单元格分为三组。随后,我们提出了一个多任务模型,以使用文本模态和图像模态特征同时解决定义的两个任务。我们的实验结果表明,我们提出的方法可以超过ICDAR2013和UNLV数据集的最先进方法。
translated by 谷歌翻译
在本文中,我们研究了对抗机学习(AML)的扩大攻击表面以及对车辆到感冒物(V2M)服务的潜在攻击。我们提出了一项对多阶段灰盒攻击的预期研究,该研究可以与白盒攻击相当。对手旨在欺骗网络边缘的目标机器学习(ML)分类器,以错误地分类微电网的传入能量请求。通过推理攻击,对手可以从智能微电网和5G GNODEB之间的通信中收集实时数据,以训练边缘目标分类器的代理(即阴影)模型。为了预测对手收集实时数据实例能力的相关影响,我们研究了五种不同的情况,每个案例代表了对手收集的不同数量的实时数据实例。在完整数据集中训练的六个ML模型中,K-Nearest邻居(K-NN)被选为替代模型,通过模拟,我们证明了多阶段的灰色框攻击能够误导ML分类器和ML分类器和与白盒攻击相比,使用40%的数据,导致高达73.2%的逃避率(EIR)最高73.2%。
translated by 谷歌翻译
我们从算法的角度研究了$ \ varepsilon $ - 扰动耐受性对对称张量分解的影响。更确切地说,我们证明了以下问题的定理和设计算法:假设一个真正的对称$ d $ -tensor $ f $,norm $ ||。 Varepsilon> 0 $关于$ ||。| $的错误公差。在$ \ varepsilon $ -F $的$ \ varepsilon $中,最小的对称张量排名是多少?换句话说,在巧妙的$ \ varepsilon $ - 奔放之后,$ f $的对称张量排名是什么?我们提供两种不同的理论界限和三种算法,用于近似对称张量等级估计。我们的第一个结果是$ L_P $ -NORMS的情况的随机能量增量算法。我们的第二个结果是一种简单的基于采样的算法,灵感来自几何功能分析中的某些技术,可用于任何规范。在Hilbert-Schmidt Norm的情况下,我们还提供了一种补充算法。我们所有的算法都有严格的复杂性估计值,这反过来又产生了我们的两个主要定理在对称张量等级上,并具有$ \ varepsilon $ - 宽容的室。我们还通过对能量增量算法的初步实现进行了报告。
translated by 谷歌翻译
表现良好的深度学习模型通常具有很高的计算成本。在本文中,我们结合了两种试图降低计算成本的方法,同时保持模型性能很高:修剪和提早出口网络。我们评估了修剪早期出口网络的两种方法:(1)立即修剪整个网络,(2)以有序的方式修剪基本网络和其他线性分类器。实验结果表明,一般而言,立即修剪整个网络是更好的策略。但是,以高精度的速度,这两种方法具有相似的性能,这意味着可以将修剪和提早出口的过程分开而不会丧失最佳性。
translated by 谷歌翻译
在本文中,我们提出了一个神经端到端系统,用于保存视频的语音,唇部同步翻译。该系统旨在将多个组件模型结合在一起,并以目标语言的目标语言与目标语言的原始扬声器演讲的视频与目标语音相结合,但在语音,语音特征,面对原始扬声器的视频中保持着重点。管道从自动语音识别开始,包括重点检测,然后是翻译模型。然后,翻译后的文本由文本到语音模型合成,该模型重新创建了原始句子映射的原始重点。然后,使用语音转换模型将结果的合成语音映射到原始扬声器的声音。最后,为了将扬声器的嘴唇与翻译的音频同步,有条件的基于对抗网络的模型生成了相对于输入面图像以及语音转换模型的输出的适应性唇部运动的帧。最后,系统将生成的视频与转换后的音频结合在一起,以产生最终输出。结果是一个扬声器用另一种语言说话的视频而不真正知道。为了评估我们的设计,我们介绍了完整系统的用户研究以及对单个组件的单独评估。由于没有可用的数据集来评估我们的整个系统,因此我们收集了一个测试集并在此测试集上评估我们的系统。结果表明,我们的系统能够生成令人信服的原始演讲者的视频,同时保留原始说话者的特征。收集的数据集将共享。
translated by 谷歌翻译
最近,在预训练的GANS的潜在空间中发现可解释的方向已成为一个流行的话题。虽然现有的工作主要是考虑语义图像操纵的指示,我们专注于抽象财产:创造力。我们可以操纵图像或更少的创意吗?我们在最大的基于AI的创造力平台,艺术平台上建立工作,其中用户可以使用预先训练的GaN模型生成图像。我们探索在该平台上生成的图像的潜在维度,并提出了一种用于操纵图像的新框架,使其更具创意。我们的代码和数据集可用于http://github.com/catlab-team/latentcreative。
translated by 谷歌翻译